guttenplagwikiaorg_de-20200215-history
GuttenPlag Wiki:Skript/Pressespiegel Parser
Das folgende Python-Script extrahiert aus dem Wiki-Text einer Pressespiegel-Seite die einzelnen Einträge und speichert si als SMW-Seiten in einzelnen Dateien. Das Script dient dazu, den Pressespiegel auf SMW + Semantic Forms umzustellen. Upload der Dateien ins Wiki funktioniert gut via wikipediafs pressespiegel-parser.py #!/usr/bin/env python # coding: utf-8 import sys import re import os.path re_date = re.compile("^ \s*(\d+\. \wäöüß+ \d+)") #re_medium = re.compile("(.+)") # might also completely match " here and there " re_medium = re.compile(r"(?:)((?:^'|(?:'{0,2}(?=^')))*)(?:)") #re_title = re.compile(" ^'+") re_title = re.compile("http://[^ \]\t\n\r\f\v]+ (^\]+)\]") re_link = re.compile("http://[^ \]\t\n\r\f\v]+") re_author = re.compile("\((^\(\)+)\)") re_clean_start = re.compile("^[:\-\*\s\\\(\)'\"]+") # remove leftovers at beginning of line re_clean_end = re.compile("[:\-\*\s\\('\"+$") # remove leftovers at end of line MONTHS = {"Januar" : "01", "Februar" : "02", "März" : "03", "April" : "04", "Mai" : "05", "Juni" : "06", "Juli" : "07", "August" : "08", "September" : "09", "Oktober" : "10", "November" : "11", "Dezember" : "12" } blacklist = " ", "", " ", " " mappingfile = "./medium_mapping.txt" mappingdata = open(mappingfile, "r").readlines() ' Filter known irrelevant lines ' def filter_blacklist(line): if line.strip() in blacklist: return True else: return False ' Extract structured data from a line ' def extract_entry(date, line): medium = re_medium.findall(line) #medium = re_medium.findall(line) if len(medium) > 0: medium = medium0 else: medium = "" medium = re_clean_start.sub("", medium) medium = re_clean_end.sub("", medium) mapped_medium = map_medium(medium.strip()) title = re_title.findall(line) if len(title) > 0: title = title0 else: title = "" title = re_clean_start.sub("", title) title = re_clean_end.sub("", title) link = re_link.findall(line) if len(link) > 0: link = link0 else: link = "" link = re_clean_start.sub("", link) link = re_clean_end.sub("", link) author = re_author.findall(line) if len(author) > 0: author = author0 else: author = "" author = re_clean_start.sub("", author) author = re_clean_end.sub("", author) excerpt = line excerpt = str.replace(excerpt, medium, "") excerpt = str.replace(excerpt, title, "") excerpt = str.replace(excerpt, link, "") excerpt = str.replace(excerpt, author, "") excerpt = re_clean_start.sub("", excerpt) excerpt = re_clean_end.sub("", excerpt) # extract date (day, month, year) = date.split(" ") day = str.replace(day, ".", "") if len(day) < 2: day = "0" + day num_month = MONTHSmonth iso_date = year + "-" + num_month + "-" + day # add original text in comment field to enable manual cleanup comment = "automatisch importiert aus dem alten Pressespiegel. Bitte überprüfen und dann das Kommentarfeld löschen \n" + line0: # write to stdout/file # print " " # print # print "Datum:", date, "("+iso_date+")" # print "Medium:", medium # print "Titel:", title # print "Link:", link # print "Autor:", author # print "Auszug:" # print excerpt # print # print "Kommentar:", comment # print title_string = str.replace(mapped_medium + ": " + title, " ", "_") title_string = str.replace(title_string, "/", "_") filename = "./output/" + iso_date + "_" + title_string while os.path.exists(filename+".mw"): filename = filename + "_" fd = open(filename + ".mw", "w") fd.write(" \n") def map_medium(medium): mapped = medium0: for l in range(len(mappingdata)/2): if mappingdata2*l.strip() medium.strip(): mapped = mappingdata2*l+1.strip() break if medium != mapped: print " " + medium + " > " + mapped return mapped #print " > Reading source file" src = open(sys.argv1).readlines() #print " > Parsing file" date = None for line in src: if filter_blacklist(line) True: pass elif line0:3 " ": # new date date = re_date.findall(line) if len(date) > 0: print date date = date0 else: print line date = "invalid" elif line0 "*": # new entry if date != "invalid": extract_entry(date, line) else: # unrecognized #print "IGNORED: " + line pass #print " > finished" medium-mapping.txt 20min.ch 20min.ch 20 Minuten Online 20 Minuten Online 3sat 3sat 3Sat 3sat 3sat nano 3sat nano 3sat online 3sat Aachener Zeitung Aachener Zeitung Aargauer Zeitung Aargauer Zeitung ABC ABC ABC ESPANA ABC.es Abendzeitung Abendzeitung Abendzeitung München Abendzeitung München AFP AFP Ahlener Zeitung Ahlener Zeitung Aktuelles Aktuelles ARD ARD ARD Mediathek ARD Mediathek ARD Nachtmagazin ARD Nachtmagazin ARD Wochenspiegel ARD Wochenspiegel art art-magazin Augsburger Allgemeine Augsburger Allgemeine Augsburger Nachrichten Augsburger Nachrichten Badische Zeitung Badische Zeitung Baltische Rundschau Baltische Rundschau Basler Zeitung Basler Zeitung Bayerischer Rundfunk Bayerischer Rundfunk Bayerischer Rundfunk Bayern2 Bayerischer Rundfunk - Bayern2 Bayerischer Rundfunk online Bayerischer Rundfunk Bayerisches Fernsehen Bayerischer Rundfunk - Bayerisches Fernsehen Bayernkurier Bayernkurier Berliner Gazette Berliner Gazette Berliner Kurier Berliner Kurier Berliner Morgenpost Berliner Morgenpost Berliner Zeitung Berliner Zeitung biaMag, Türkei Bianet Bibliotheksservice-Zentrum Baden-Württemberg Bibliotheksservice-Zentrum Baden-Württemberg Bild BILD Bild.de BILD bildungsklick.de bildungsklick.de Bildungspflicht Bildungspflicht Blog für wissenschaftliche Redlichkeit Blog für wissenschaftliche Redlichkeit BoingBoing BoingBoing börsenblatt net. börsenblatt net. Botschaft von Estland in Berlin vom 28.04.-30.04.2011 Botschaft von Estland in Berlin vom 28.04.-30.04.2011 BR Bayerischer Rundfunk BrainLogs BrainLogs buchreport buchreport Business village Business village Canoë (Québec, Canada) Canoë Carta Carta CARTA Carta CESKAP ZIZE.CZ CESKAP ZIZE.CZ Chaos Radio Chaos Radio charivaride-Nachrichten aus Bayern Charivari Radio Charivari Radio Charivari Radio Cicero Cicero CIO CIO cio Wirtschaftsnachrichten cio Wirtschaftsnachrichten Compliance Magazin Compliance Magazin Copy, Shake, and Paste Copy, Shake, and Paste Das Parlament Das Parlament DAZ.online DAZ.online Demokratie und Alltag Demokratie und Alltag derFreitag der Freitag DerFreitag der Freitag derNewsticker.de derNewsticker.de der Standard der Standard derStandard.at der Standard Der Tagesspiegel Der Tagesspiegel DER TAGESSPIEGEL Der Tagesspiegel DerWesten DerWesten DERWESTEN DerWesten Deutsche Bank Research Deutsche Bank Research Deutscher Bundestag Deutscher Bundestag Deutscher Hochschulverband (DHV) Deutscher Hochschulverband (DHV) Deutsches Ärzteblatt Deutsches Ärzteblatt Deutsche Welle Deutsche Welle DEUTSCHE WELLE Deutsche Welle Deutschlandfunk Deutschlandfunk DEUTSCHLANDFUNK Deutschlandfunk Deutschlandradio Deutschlandradio Deutschlandradio Kultur Deutschlandradio Kultur Deutschlandradio Kultur / taz Deutschlandradio Kultur Die-Mark-Online Die-Mark-Online Die Presse Die Presse Die Presse.com Die Presse.com DNA -Dernières Nouvelles d'Alsace DNA -Dernières Nouvelles d'Alsace D NEWS D NEWS DoNews China DoNews China dradio.de Deutschlandradio Dradio Wissen DRadio Wissen DRadio Wissen DRadio Wissen DRradio / Dokumente und Debatten DRradio / Dokumente und Debatten Echo online Echo online El País.com El País.com Erbloggtes Erbloggtes Erbloggtes (Blog) Erbloggtes Espectador Espectador EU-Infothek EU-Infothek Eulenspiegel Eulenspiegel euronews euronews European European Europe Online Europe Online evangelisch.de evangelisch.de eventbox.info eventbox.info Excelsior (Mexiko) Excelsior Express Express.de EXPRESS Express.de Familien-Blickpunkt Familien-Blickpunkt FAZ FAZ.NET FAZ net FAZ.NET FAZ NET FAZ.NET FAZ.NET FAZ.NET Feitag der Freitag FINACIAL NEWS Financial News Financial Times Financial Times Financial Times Deutschland Financial Times Deutschland Finanzwirtschafter Finanzwirtschafter firmenpresse firmenpresse Focus FOCUS Online FOCUS FOCUS Online Focus online FOCUS Online Focus Online FOCUS Online FOCUS Online FOCUS Online FOCUS ONLINE FOCUS Online förderland förderland Forschung & Lehre Forschung & Lehre Frankenpost Frankenpost Frankfurter Allgemeine Sonntagszeitung Frankfurter Allgemeine Sonntagszeitung Frankfurter Allgemeine Zeitung Frankfurter Allgemeine Zeitung Frankfurter Allgemeine Zeitung (Blog, Antike und Abendland) Frankfurter Allgemeine Zeitung (Blog, Antike und Abendland) Frankfurter Neue Presse Frankfurter Neue Presse Frankfurter Rundschau Frankfurter Rundschau Frankfurter Rundschau - Interview mit PlagDoc Frankfurter Rundschau Freie Presse Freie Presse Freie Presse Sachsen Freie Presse Freitag der Freitag Frontal21, ZDF um 21 Uhr ZDF Frontal21 Frühnachrichten Frühnachrichten FTD Financial Times Deutschland fudder fudder.de fudder.de fudder.de Gemeindezentrum Ramstein Gemeindezentrum Ramstein General-Anzeiger-Bonn General-Anzeiger Bonn German.China.org.cn German.China.org.cn Germania Online Russland GERMANIA-ONLINE.RU GERMANIA ONLINE: Russland GERMANIA-ONLINE.RU Gipp.com Gipp.com Hamburger Abendblatt Hamburger Abendblatt Handelsblatt Handelsblatt Hannoversche Allgemeine Hannoversche Allgemeine Zeitung Hannoversche Allgemeine Zeitung Hannoversche Allgemeine Zeitung heise heise online heise online heise online HEISE ONLINE heise online Helsinki Sanomat Helsinki Sanomat Hertener Allgemeine Hertener Allgemeine Hessischer Rundfunk Hessischer Rundfunk heute (ZDF) ZDF heute Hintergrund Hintergrund inFranken.de inFranken.de Inside Higher Ed Inside Higher Ed interpol.tv interpol.tv IP Osgoode IP Osgoode IranAnders IranAnders jetzt.de / Süddeutsche Zeitung jetzt.de / Süddeutsche Zeitung Journal Frankfurt Journal Frankfurt Junge Welt Junge Welt ...jurabilis! ...jurabilis! kanal8 kanal8 kanal 8 kanal8 Kanzlei.BIZ Kanzlei.BIZ KITEKINTÓ Ungarn KITEKINTÓ klamm.de klamm.de Kleine Zeitung Kleine Zeitung Kleine Zeitung Steiermark at Kleine Zeitung Kölner Stadt Anzeiger Kölner Stadt-Anzeiger Kölner Stadt-Anzeiger Kölner Stadt-Anzeiger Kölnische Rundschau online Kölnische Rundschau Kress Kress Kritische Justiz Kritische Justiz Kulturpro Kulturpro KULTURTECHNO KULTURTECHNO Kurier Österreich Kurier Lajme, Albanien Lajme Lausitzer Rundschau Lausitzer Rundschau LAVANGUARDIA.es LAVANGUARDIA.es Le Figaro Le Figaro Legal Tribune Online Legal Tribune Online Leipziger Volkszeitung Leipziger Volkszeitung L'EXPRESS.fr L'Express LifeGen LifeGen Main Netz Main-Netz Main-Netz Main-Netz Main Post Main Post Main-Post Main Post Mainwelle Radio Mainwelle manager magazin manager magazin Manager Magazin manager magazin Mannheimer Morgen Mannheimer Morgen Markenpost.de Markenpost.de Märkische Allgemeine Märkische Allgemeine Märkische Oderzeitung Märkische Oderzeitung m&c internet m&c internet mdr mdr Medienstratege Medienstratege.de Medienstratege.de Medienstratege.de Meedia Meedia Meedia.de Meedia Meedia Top Story Meedia MEEDIA TOPSTORY Meedia meine stadt.de Jena meinestadt.de/jena Menschenzeitung MenschenZeitung merkur online Merkur Online MERKUR ONLINE Merkur Online Mittelbayerische Zeitung Mittelbayerische Zeitung Mittelbayrische Mittelbayerische Zeitung Mitteldeutsche Zeitung Mitteldeutsche Zeitung mittelstandsmanager.de mittelstandsmanager.de MONITOR MONITOR Monsters and Critics Monsters and Critics Morgenpost Morgenpost morgenweb.de morgenweb.de Morgenweb (Mannheimer Morgen) morgenweb.de Münsterländische Volkszeitung Münsterländische Volkszeitung N24 N24 na na presseportal naanoo international online magazine naanoo international online magazine nachrichten.at nachrichten.at nachrichten.at (Österreich) nachrichten.at nachrichten.ch nachrichten.ch Nachrichten.ch nachrichten.ch Nachrichten heute Nachrichten heute na presseportal na presseportal Nassauische Neue Presse Nassauische Neue Presse NDR NDR NEON NEON Netethics Netethics net tribune net tribune netzpolitik.org netzpolitik.org netzwelt.de netzwelt.de Neue Frankfurter Presse Neue Frankfurter Presse Neue Osnabrücker Zeitung Neue Osnabrücker Zeitung Neues Deutschland Neues Deutschland Neue Westfälische Neue Westfälische Neue Zürcher Zeitung NZZ Online Neue Züricher Zeitung NZZ Online news news.de news.de news.de News Digest, Japan News Digest news@orf.at ORF New York Times New York Times nnz online Neue Nordhäuser Zeitung Nordbayerischer Kurier Nordbayerischer Kurier Nordkurier Nordkurier nordwest radio Radio Bremen - nordwest radio Nordwestzeitung Nordwest-Zeitung Nordwest Zeitung Nordwest-Zeitung Nordwest-Zeitung Nordwest-Zeitung Nord West Zeitung Nordwest-Zeitung Nordwestzeitung online Nordwest-Zeitung nortecastillo.es nortecastillo.es n-tv n-tv.de n-tv breaking news n-tv.de n-tv.de n-tv.de n-tv Pressestimmen n-tv.de Pressestimmen Nürnberger Nachrichten Nürnberger Nachrichten Nürnberger Zeitung Nürnberger Zeitung NZZ NZZ Online NZZ Online NZZ Online NZZ Schweiz NZZ Online NZZ (Schweiz) NZZ Online Oberhessische Presse Oberhessische Presse OE24 OE24 Oldenburgische Volkszeitung Vechta Oldenburgische Volkszeitung Vechta OPINIO OPINIO ORF ORF ORF.de Österreich ORF Osnabrücker Zeitung Osnabrücker Zeitung OVB OVB Online OVB online OVB Online País El País.com Passauer Neue Presse Passauer Neue Presse Perspektive Mittelstand Perspektive Mittelstand PERÚ21.PE PERÚ21.PE Phoenix Phoenix politik-digital.de politik-digital.de Potsdamer Neueste Nachrichten Potsdamer Neueste Nachrichten Presse.com Presse.com Pressemappe Pressemappe Pressemitteilung Hochschulrektorenkonferenz Pressemitteilung Hochschulrektorenkonferenz Presseschleuder.com Presseschleuder.com PRESSESCHLEUDER.COM PRESSESCHLEUDER.COM profil online profil online Qualitätszirkel Promotion Qualitätszirkel Promotion Radio96acht Bonn Radio96acht Bonn radio Bamberg Radio Bamberg radio bremen Radio Bremen radiobremen.de (nordwest radio) Radio Bremen - nordwest radio radio eins (rbb) radio eins (rbb) Radio Mainwelle Radio Mainwelle Radio Plassenburg Radio Plassenburg RADIO Plassenburg Radio Plassenburg Radio Plessenburg Radio Plassenburg RAESON, Dänemark RAESON, Dänemark Rang und Namen Rang und Namen rbb rbb rbb inforadio rbb inforadio Readers Edition Readers Edition Reuters Reuters Reuters Africa Reuters Africa Reuters (DE) Reuters Reuters Deutschland Reuters Reutlinger General-Anzeiger Reutlinger General-Anzeiger Rheinische Post RP ONLINE Roadrunnerswelt Roadrunnerswelt Rohmert-Medien Rohmert-Medien Rosenheimer Nachrichten Rosenheimer Nachrichten RP RP ONLINE RP online RP ONLINE RP-online RP ONLINE RP-Online RP ONLINE RP ONLINE RP ONLINE RTL RTL rtl.nl rtl.nl Saarbrücker Zeitung Saarbrücker Zeitung Saarländischer Rundfunk Saarländischer Rundfunk Sächsische Zeitung Sächsische Zeitung SALZBURG24 SALZBURG24 Savon Sanomat Savon Sanomat scharf links scharf links schieb.de schieb.de Schwäbisches Tagblatt Schwäbisches Tagblatt Schweizer Fernsehen 10vor10 Schweizer Fernsehen 10vor10 Schweiz Magazin Schweiz Magazin see-online.info see-online.info Semana.com Semana.com SHINMOONGO (Korea) SHINMOONGO ShortNews ShortNews silicon silicon.de silicon.de silicon.de Sonntags Zeitung Sonntags Zeitung sozialismus.info sozialismus.info Spiegel Spiegel SPIEGEL SPIEGEL ONLINE Spiegel.de SPIEGEL ONLINE Spiegel online SPIEGEL ONLINE Spiegel Online SPIEGEL ONLINE SPIEGEL ONLINE SPIEGEL ONLINE Spiegel onlline SPIEGEL ONLINE Sprengsatz Sprengsatz SR 2 SR 2 Standard Standard Standard.at Standard.at Stern Stern stern.de stern.de Stern.de stern.de stltoday.com (USA) stltoday.com (USA) Stuttgarter Nachrichten Stuttgarter Nachrichten Stuttgarter Zeitung Stuttgarter Zeitung Süddeutsche sueddeutsche.de Süddeutsche. sueddeutsche.de süddeutsche.de sueddeutsche.de Süddeutsche Magazin Süddeutsche Zeitung Magazin Süddeutsche Zeitung sueddeutsche.de Süddeutsche Zeitung/Häberle sueddeutsche.de Südkurier Südkurier Südwestpresse Südwestpresse Südwest Presse Südwest Presse sueddeutsche.de sueddeutsche.de suite101 suite101.de suite101 - das Netzwerk der Autoren suite101.de suite 101.de suite101.de suite101.de suite101.de supportnet supportnet swisscom swisscom SWR SWR Tages Anzeiger Tages Anzeiger Tages Anzeiger Schweiz Tages Anzeiger tagesschau tagesschau.de Tagesschau tagesschau.de Tagesschau ARD tagesschau.de Tagesschau (ARD) tagesschau.de tagesschau.de tagesschau.de Tagesschau.de tagesschau.de Tagesspiegel Der Tagesspiegel tageszeitung tageszeitung Tauber Zeitung Tauber Zeitung taz taz.de taz. taz.de taz.de taz.de Technik Blog Technik Blog Telegraaf Telegraaf Telepolis Telepolis teltarif.de teltarif.de Texter gesucht.de Nachrichten Texter gesucht.de Nachrichten THE CHRONICLE THE CHRONICLE The European The European The Intelligence The Intelligence The Irish Times The Irish Times the Trumpet.com the Trumpet.com Thüringer Allgemeine Thüringer Allgemeine Thüringer LZ Thüringer Landeszeitung Thüringer Zeitung Thüringer Zeitung TLZ.de TLZ.de t-online T-online T-online T-online Tribune de Geneve Tribune de Geneve Trierer Medienblog - Universität Trier Trierer Medienblog - Universität Trier tv-movie tv-movie TV Oberfranken TV Oberfranken TV Spielfilm TV Spielfilm Twick.it Twick.it UNICUM.de UNICUM.de Universität Bayreuth Universität Bayreuth Universität Bayreuth Medienmitteilung Universität Bayreuth Medienmitteilung VDI nachrichten VDI nachrichten Volksstimme Volksstimme vorwärts.de vorwärts.de Walker's World Walker's World Walsroder Zeitung Walsroder Zeitung WDR WDR WDR.de WDR Welt WELT ONLINE WELT WELT ONLINE Welt am Sonntag WELT am SONNTAG Weltexpress Weltexpress welt online WELT ONLINE Welt online WELT ONLINE Welt Online WELT ONLINE WELT ONLINE WELT ONLINE Weser-Kurier Weser-Kurier Westdeutsche Allgemeine Zeitung Westdeutsche Allgemeine Zeitung Westfalen Blatt Westfalen-Blatt Westfalen-Blatt Westfalen-Blatt Westfälische Nachrichten Westfälische Nachrichten Wiener Zeitung Wiener Zeitung Wie-Wie.de Wie-Wie.de wikinews wikinews Wirtschaft Regional Wirtschaft Regional WirtschaftsWoche WirtschaftsWoche wissenlogs WissenLogs WissenLogs WissenLogs wissenrock wissenrock WissensLogs WissensLogs Wochenspiegel Wochenspiegel Wormser Zeitung Wormser Zeitung Youtube.com Youtube.com ZDF ZDF ZDF Frontal21 ZDF Frontal21 ZDF Frontal21-Interview ZDF Frontal21 ZDF Kennzeichen Digital - Das Blog ZDF Kennzeichen Digital - Das Blog zehn.de zehn.de Zeit ZEIT ONLINE ZEIT ZEIT ONLINE Zeitong zeitong zeitong.de zeitong Zeit online ZEIT ONLINE Zeit.online ZEIT ONLINE ZEIT online ZEIT ONLINE ZEIT ONLINE ZEIT ONLINE Zeitschrift - das Magazin Zeitschrift - das Magazin Znam Li, Russland Znam Li, Russland Kategorie:Skript